有限 MDP

请使用此链接获取 OpenAI Gym 中的可用环境。

环境索引为环境 ID，每个环境都有对应的观察空间、动作空间、奖励范围、tStepL、Trials 和 rThresh。

CartPole-v0

在表格中查找对应于 CartPole-v0 环境的行。请记下相应的观察空间 (Box(4,)) 和动作空间 (Discrete(2))。

正如在 OpenAI Gym 文档中所描述的情况：

每个环境都有第一类 Space 对象，描述了有效的动作和观察结果。

Discrete 空间允许存在固定范围的非负数。

Box 空间表示 n 维方框，因此有效动作或观察结果将是一个有 n 个数字的数组。

CartPole-v0 环境的观察空间有一个笔误：Box(4,)。因此，在每个时间点的观察结果（或状态）是有 4 个数字的数组。你可以在此文档中查看每个数字表示的含义。打开该页面后，向下滚动到观察空间的说明部分。

注意购物车速度和杆子顶端速度的最小值 (-Inf) 和最大值 (Inf)。

因为数组中的条目对应的每个索引可以是任何实数，所以状态空间 \mathcal{S}^+ 是无限的！

CartPole-v0 环境的动作空间类型为 Discrete(2)。因此，在任何时间点，智能体只能采取两个动作。你可以在此文档（注意，和查找观察空间使用的文档一样！）中查看每个数字表示的含义。打开该页面后，向下滚动到动作空间的说明部分。

在这种情况下，动作空间 \mathcal{A} 是一组有限的集合，仅包含两个元素。

记得在上个部分，我们提到：在有限的 MDP 中，状态空间 \mathcal{S}（或在阶段性任务中为 \mathcal{S}^+）和动作空间 \mathcal{A} 必须都是有限的。

因此，虽然 CartPole-v0 环境的确指定了 MDP，它没有指定有限的 MDP。在这门课程中，我们将重点讲解有限 MDP 的解决方法。

你在这门课程中将解决的环境为：

如果你愿意的话，可以现在花时间详细了解这些环境。检查确保每个环境都指定有限的 MDP。